audiobookshelf/server/utils/parseOpfMetadata.js

const { xmlToJSON } = require('./index')
const { stripHtml } = require("string-strip-html")

function parseCreators(metadata) {
  if (!metadata['dc:creator']) return null
  var creators = metadata['dc:creator']
  if (!creators.length) return null
  return creators.map(c => {
    if (typeof c !== 'object' || !c['$'] || !c['_']) return false
    return {
      value: c['_'],
      role: c['$']['opf:role'] || null,
      fileAs: c['$']['opf:file-as'] || null
    }
  })
}

function fetchCreator(creators, role) {
  if (!creators || !creators.length) return null
  var creator = creators.find(c => c.role === role)
  return creator ? creator.value : null
}

function fetchTagString(metadata, tag) {
  if (!metadata[tag] || !metadata[tag].length) return null
  var tag = metadata[tag][0]
  if (typeof tag !== 'string') return null
  return tag
}

function fetchDate(metadata) {
  var date = fetchTagString(metadata, 'dc:date')
  if (!date) return null
  var dateSplit = date.split('-')
  if (!dateSplit.length || dateSplit[0].length !== 4 || isNaN(dateSplit[0])) return null
  return dateSplit[0]
}

function fetchPublisher(metadata) {
  return fetchTagString(metadata, 'dc:publisher')
}

function fetchISBN(metadata) {
  if (!metadata['dc:identifier'] || !metadata['dc:identifier'].length) return null
  var identifiers = metadata['dc:identifier']
  var isbnObj = identifiers.find(i => i['$'] && i['$']['opf:scheme'] === 'ISBN')
  return isbnObj ? isbnObj['_'] || null : null
}

function fetchTitle(metadata) {
  return fetchTagString(metadata, 'dc:title')
}

function fetchDescription(metadata) {
  var description = fetchTagString(metadata, 'dc:description')
  if (!description) return null
  // check if description is HTML or plain text. only plain text allowed
  // calibre stores < and > as &lt; and &gt;
  description = description.replace(/&lt;/g, '<').replace(/&gt;/g, '>')
  if (description.match(/<!DOCTYPE html>|<\/?\s*[a-z-][^>]*\s*>|(\&(?:[\w\d]+|#\d+|#x[a-f\d]+);)/)) return stripHtml(description).result
  return description
}

function fetchGenres(metadata) {
  if (!metadata['dc:subject'] || !metadata['dc:subject'].length) return []
  return metadata['dc:subject'].map(g => typeof g === 'string' ? g : null).filter(g => !!g)
}

function fetchLanguage(metadata) {
  return fetchTagString(metadata, 'dc:language')
}

function fetchSeries(metadata) {
  if(typeof metadata.meta == "undefined") return null
  return fetchTagString(metadata.meta, "calibre:series")
}

function fetchVolumeNumber(metadata) {
  if(typeof metadata.meta == "undefined") return null
  return fetchTagString(metadata.meta, "calibre:series_index")
}

module.exports.parseOpfMetadataXML = async (xml) => {
  var json = await xmlToJSON(xml)
  if (!json || !json.package || !json.package.metadata) return null
  var metadata = json.package.metadata

  if (Array.isArray(metadata)) {
    if (!metadata.length) return null
    metadata = metadata[0]
  }

  if (typeof metadata.meta != "undefined") {
    metadata.meta = {}
    for(var match of xml.matchAll(/<meta name="(?<name>.+)" content="(?<content>.+)"\/>/g)) {
      metadata.meta[match.groups['name']] = [match.groups['content']]
    }
  }

  var creators = parseCreators(metadata)
  var data = {
    title: fetchTitle(metadata),
    author: fetchCreator(creators, 'aut'),
    narrator: fetchCreator(creators, 'nrt'),
    publishYear: fetchDate(metadata),
    publisher: fetchPublisher(metadata),
    isbn: fetchISBN(metadata),
    description: fetchDescription(metadata),
    genres: fetchGenres(metadata),
    language: fetchLanguage(metadata),
    series: fetchSeries(metadata),
    volumeNumber: fetchVolumeNumber(metadata)
  }
  return data
}
Fix: books read stat #167, Add: scanner parse metadata.opf and metadata.xml and use data #141 2021-11-09 03:05:12 +01:00			`const { xmlToJSON } = require('./index')`
Strip html from opf descriptions 2021-12-04 22:07:43 +01:00			`const { stripHtml } = require("string-strip-html")`
Fix: books read stat #167, Add: scanner parse metadata.opf and metadata.xml and use data #141 2021-11-09 03:05:12 +01:00
			`function parseCreators(metadata) {`
			`if (!metadata['dc:creator']) return null`
			`var creators = metadata['dc:creator']`
			`if (!creators.length) return null`
			`return creators.map(c => {`
			`if (typeof c !== 'object' \|\| !c['$'] \|\| !c['_']) return false`
			`return {`
			`value: c['_'],`
			`role: c['$']['opf:role'] \|\| null,`
			`fileAs: c['$']['opf:file-as'] \|\| null`
			`}`
			`})`
			`}`

			`function fetchCreator(creators, role) {`
			`if (!creators \|\| !creators.length) return null`
			`var creator = creators.find(c => c.role === role)`
			`return creator ? creator.value : null`
			`}`

Change: scanner uses any .opf file, use description if plain text, use genres #141, Add: language book detail 2021-11-10 00:54:28 +01:00			`function fetchTagString(metadata, tag) {`
			`if (!metadata[tag] \|\| !metadata[tag].length) return null`
			`var tag = metadata[tag][0]`
			`if (typeof tag !== 'string') return null`
			`return tag`
			`}`

Fix: books read stat #167, Add: scanner parse metadata.opf and metadata.xml and use data #141 2021-11-09 03:05:12 +01:00			`function fetchDate(metadata) {`
Change: scanner uses any .opf file, use description if plain text, use genres #141, Add: language book detail 2021-11-10 00:54:28 +01:00			`var date = fetchTagString(metadata, 'dc:date')`
			`if (!date) return null`
			`var dateSplit = date.split('-')`
Fix: books read stat #167, Add: scanner parse metadata.opf and metadata.xml and use data #141 2021-11-09 03:05:12 +01:00			`if (!dateSplit.length \|\| dateSplit[0].length !== 4 \|\| isNaN(dateSplit[0])) return null`
			`return dateSplit[0]`
			`}`

			`function fetchPublisher(metadata) {`
Change: scanner uses any .opf file, use description if plain text, use genres #141, Add: language book detail 2021-11-10 00:54:28 +01:00			`return fetchTagString(metadata, 'dc:publisher')`
Fix: books read stat #167, Add: scanner parse metadata.opf and metadata.xml and use data #141 2021-11-09 03:05:12 +01:00			`}`

			`function fetchISBN(metadata) {`
			`if (!metadata['dc:identifier'] \|\| !metadata['dc:identifier'].length) return null`
			`var identifiers = metadata['dc:identifier']`
			`var isbnObj = identifiers.find(i => i['$'] && i['$']['opf:scheme'] === 'ISBN')`
			`return isbnObj ? isbnObj['_'] \|\| null : null`
			`}`

			`function fetchTitle(metadata) {`
Change: scanner uses any .opf file, use description if plain text, use genres #141, Add: language book detail 2021-11-10 00:54:28 +01:00			`return fetchTagString(metadata, 'dc:title')`
			`}`

			`function fetchDescription(metadata) {`
			`var description = fetchTagString(metadata, 'dc:description')`
			`if (!description) return null`
			`// check if description is HTML or plain text. only plain text allowed`
			`// calibre stores < and > as < and >`
			`description = description.replace(/</g, '<').replace(/>/g, '>')`
Strip html from opf descriptions 2021-12-04 22:07:43 +01:00			`if (description.match(/<!DOCTYPE html>\|<\/?\s[a-z-][^>]\s*>\|(\&(?:[\w\d]+\|#\d+\|#x[a-f\d]+);)/)) return stripHtml(description).result`
Change: scanner uses any .opf file, use description if plain text, use genres #141, Add: language book detail 2021-11-10 00:54:28 +01:00			`return description`
			`}`

			`function fetchGenres(metadata) {`
			`if (!metadata['dc:subject'] \|\| !metadata['dc:subject'].length) return []`
			`return metadata['dc:subject'].map(g => typeof g === 'string' ? g : null).filter(g => !!g)`
			`}`

			`function fetchLanguage(metadata) {`
			`return fetchTagString(metadata, 'dc:language')`
Fix: books read stat #167, Add: scanner parse metadata.opf and metadata.xml and use data #141 2021-11-09 03:05:12 +01:00			`}`

Get series info from opf 2021-12-04 22:07:31 +01:00			`function fetchSeries(metadata) {`
			`if(typeof metadata.meta == "undefined") return null`
			`return fetchTagString(metadata.meta, "calibre:series")`
			`}`

			`function fetchVolumeNumber(metadata) {`
			`if(typeof metadata.meta == "undefined") return null`
			`return fetchTagString(metadata.meta, "calibre:series_index")`
			`}`

Fix: books read stat #167, Add: scanner parse metadata.opf and metadata.xml and use data #141 2021-11-09 03:05:12 +01:00			`module.exports.parseOpfMetadataXML = async (xml) => {`
			`var json = await xmlToJSON(xml)`
			`if (!json \|\| !json.package \|\| !json.package.metadata) return null`
			`var metadata = json.package.metadata`
Change: scanner uses any .opf file, use description if plain text, use genres #141, Add: language book detail 2021-11-10 00:54:28 +01:00
Fix: books read stat #167, Add: scanner parse metadata.opf and metadata.xml and use data #141 2021-11-09 03:05:12 +01:00			`if (Array.isArray(metadata)) {`
			`if (!metadata.length) return null`
			`metadata = metadata[0]`
			`}`

Moved getting xml meta entries to opf parser 2021-12-04 23:15:23 +01:00			`if (typeof metadata.meta != "undefined") {`
			`metadata.meta = {}`
			`for(var match of xml.matchAll(/<meta name="(?<name>.+)" content="(?<content>.+)"\/>/g)) {`
			`metadata.meta[match.groups['name']] = [match.groups['content']]`
			`}`
			`}`

Fix: books read stat #167, Add: scanner parse metadata.opf and metadata.xml and use data #141 2021-11-09 03:05:12 +01:00			`var creators = parseCreators(metadata)`
			`var data = {`
			`title: fetchTitle(metadata),`
			`author: fetchCreator(creators, 'aut'),`
			`narrator: fetchCreator(creators, 'nrt'),`
			`publishYear: fetchDate(metadata),`
			`publisher: fetchPublisher(metadata),`
Change: scanner uses any .opf file, use description if plain text, use genres #141, Add: language book detail 2021-11-10 00:54:28 +01:00			`isbn: fetchISBN(metadata),`
			`description: fetchDescription(metadata),`
			`genres: fetchGenres(metadata),`
Get series info from opf 2021-12-04 22:07:31 +01:00			`language: fetchLanguage(metadata),`
			`series: fetchSeries(metadata),`
			`volumeNumber: fetchVolumeNumber(metadata)`
Fix: books read stat #167, Add: scanner parse metadata.opf and metadata.xml and use data #141 2021-11-09 03:05:12 +01:00			`}`
			`return data`
			`}`